【知识学习】梯度下降
任何模型的构建都建立在预估值受各个因素影响的前提下,服从一个固定的分布。
最简单的一元分布实质就是在二维空间上,带估值y完全受x的作用影响服从一个分布,其分布具体体现就是一条线。对应到高维空间上,实质每个维度都是一条轴(当然维度可以是互不相关的,就是轴之间均是垂直的;也可以是相关的,体现在高维轴之间存在一定角度,鉴于很多模型的构建是建立在属性独立的前提上,所以需要针对具体情况进行维度优化或者特征优化)
一般情况下,在特征包含信息足够全面的前提下,往往一组特征对应一个固定的预测值(在贝叶斯体系下,受随机误差的影响,此时预测值应该服从一个均值为固定值的正态分布【大数定律】)而特征一定程度上就是表征维度方向,而权重则是确定在特征对应的维度空间上的具体分布
也就是说,当我们定义一个损失函数后,当特征固定后,该损失函数随权重组合应该是服从一个固定的分布。而我们的目标是寻找一个权重组合使损失函数在给定的特征组合下最小,即其在一个连续分布上应该是一个极小值点中的一个。而对于极小值来说有一个特征就是其梯度(斜率)为0,而非极值点的梯度下降的方向理论上是指向其中一个极值点的。
需要注意的是,这里分布的自变量是权重的取值,而不是特征的取值,特征固定,损失函数随权重变化,找到损失函数最小的券种组合为最优。当更新特征组合,再去找新的分布的最优权重组合方向
按照泰勒展开,定义该分布为f(x),输入个固定点x0,泰勒展开就包含了一阶梯度(斜率)和二阶梯度(凹凸度)的取值,从而可以判断出固定点是否为极值点。